Il dataset considerato in quest’analisi riguarda le spese annuali dei clienti di un commerciante all’ingrosso. I dati sono espressi in unità monetarie ed i clienti vengono raggruppati in due grandi categorie: i luoghi di ristorazione (Horeca) ed i negozi di vendita al dettaglio (Retail). Vengono elencate di seguito le variabili presenti e le relative informazioni:
## Channel Region Fresh Milk Grocery Frozen Detergents_Paper Delicassen
## 1 Retail Others 12669 9656 7561 214 2674 1338
## 2 Retail Others 7057 9810 9568 1762 3293 1776
## 3 Retail Others 6353 8808 7684 2405 3516 7844
## 4 Horeca Others 13265 1196 4221 6404 507 1788
## 5 Retail Others 22615 5410 7198 3915 1777 5185
## 6 Retail Others 9413 8259 5126 666 1795 1451
Di seguito riportiamo le rappresentazioni grafiche delle variabili:
Come si può notare dai grafici e dalle tabelle di frequenza, gli ordini piazzati dalla categoria Horeca sono decisamente più considerevoli di Retail (più del doppio). Analogamente, la categoria Others presenta decisamente molti più valori rispetto a Lisbon e Oporto.
Dal grafico precedente si nota come le variabili continue presentino distribuzioni differenti, nonostante le relative medie siano pressoché simili. É importante sottolineare la notevole presenza di outliers che potrebbe suggerire un’analisi orientata alla loro eliminazione. Si decide di non procedere in questo senso proprio per la tipologia di dato che esse rappresentano. Essendo rappresentazioni di spese non ci si aspetta che ci siano errori di misurazione (o perlomeno non se ne ha la certezza), quindi per quanto possano essere anomali ed elevati, essi hanno comunque una loro probabilità di realizzazione e quindi risulterebbe fuorviante condurre un’analisi senza di essi.
L’obiettivo di questo studio è quello di individuare le relazioni che intercorrono tra le variabili al fine di generare dei modelli previsionali. Una preliminare fase di analisi esplorativa dei dati può quindi risultare utile.
Consideriamo le variabili quantitative condizionatamente alle due variabili qualitative (Region e Channel) per scoprire eventuali relazioni. Partiamo quindi con la variabile Region:
Dai boxplot delle quantitative condizionate alla variabile Region emerge come, quest’ultima, non influenzi le distribuzioni, in quanto i boxplot sono molto simili.
Procediamo quindi con l’analisi passando alla variabile qualitativa Channel:
Fatta esclusione per Delicassen, ora, le distribuzioni mostrate dai boxplot risultano essere significativamente differenti, sintomo di una sostanziale influenza della variabile Channel.
Per studiare un’eventuale relazione di dipendenza tra le variabili quantitative, trasformiamo quest’ultime in fattori utilizzando 3 livelli: low, medium e high.
I range considerati sono i seguenti:
| Variabile | Low | Medium | High |
|---|---|---|---|
| Fresh | 0 - 4000 | 4001 - 10000 | 10001 - INF |
| Milk | 0 - 2000 | 2001 - 6000 | 60001 - INF |
| Grocery | 0 - 2500 | 2501 - 6000 | 60001 - INF |
| Frozen | 0 - 4000 | 4001 - 10000 | 10001 - INF |
| Detergents_Paper | 0 - 500 | 501 - 3000 | 3001 - INF |
| Delicassen | 0 - 500 | 501 - 1500 | 1501 - INF |
Possiamo quindi procedere allo studio dell’indipendenza tra le variabili mediante il chi-squared test:
| Fresh | Milk | Grocery | Frozen | Detergents_Paper | Delicassen | |
|---|---|---|---|---|---|---|
| Channel | 0.008108 | 2.2e-16 | 2.2e-16 | 5.836e-06 | 2.2e-16 | 0.002112 |
| Region | 0.7205 | 0.5231 | 0.4224 | 0.4768 | 0.8972 | 0.284 |
A conferma di quanto detto sopra, si evince come la variabile Channel influenzi in modo deciso i valori delle spese, in quanto tutte le variabili presentano un p-value inferiore a 0.05, implicando quindi la presenza di una relazione di dipendenza.
Per quanto riguarda la variabile Region, si nota come i valori del p-value siano superiori alla soglia di 0.05, implicando quindi il rifiuto dell’ipotesi nulla.
Passiamo ora alla rappresentazione grafica delle variabili quantitative tradotte in classi:
Plot degli istogrammi relativi alle variabili quantitative a cui sovrapponiamo le curve di densità.
Si notano delle distribuzioni unimodali.
Procediamo ora con il riportare gli scatterplot di tutte le coppie formate da variabili quantitative.
Dagli scatterplot delle variabili quantitative condizionate alla variabile categoriale Region, emerge come, al variare della regione, i punti sembrano mantenere lo stesso pattern, sebbene cambi la numerosità(come già visto nella sezione riguardante le descrizione del dataset).
Per quanto riguarda gli scatterplot condizionati alla variabile qualitativa Channel, si può notare come, cambiando il canale di vendita, i punti seguano pattern diversi, con ciò si può concludere che Channel è più influente sull’insieme dei dati rispetto a Region.
A seguito di queste considerazioni, nel momento in cui andremo a sviluppare i modelli lineari, considereremo solo l’interazione della variabile categoriale Channel, ed, eventualmente, l’interazione della stessa con la variabile esplicativa.
Ora analizziamo la matrice di correlazione con il comando corrplot per vedere quali sono gli indici di correlazione tra le variabili presenti nel dataset.
I dati appena ottenuti sono facilmente verificabili graficamente con gli scatterplot visti in precedenza. Ad esempio Detergents_Paper e Grocery sembrano effettivamente seguire un andamento lineare nel loro grafico.
Combinando questi dati con le analisi fatte in precedenza, si decide, quindi, di selezionare le 4 coppie di variabili che possiedono una maggiore interazione tra di esse al fine di creare dei modelli di previsione lineare. Eccole elencate:
In seguito considereremo, nell’analisi, anche la possibilità di utilizzare la variabile esplicativa trasformata, quindi con una delle seguenti trasformazioni:
Infatti, in molti casi, applicare delle trasformazioni alle variabili può incidere significativamente sulla bontà del modello.
Si seguirà un procedimento analogo per ogni coppia di variabili. Come già accennato esso sarà composto da:
analisi di correlazione con le trasformazioni di variabili;
creazione dei modelli lineari;
analisi della bontà del modello.
Indice di correlazione senza trasformazioni: 0.9246407
Indice di correlazione con trasformazione logaritmica: 0.6667038
Indice di correlazione con trasformazione square root: 0.8505584
Indice di correlazione con trasformazione quadratica: 0.8138609
Dopo aver valutato gli indici di correlazione con le diverse trasformazioni abbiamo deciso di utilizzare le variabili senza trasformazioni.
Gli R^2 relativi ai tre modelli sono i seguenti:
Detergents_Paper ~ Grocery: 0.855
Detergents_Paper ~ Grocery + Channel: 0.8628
Detergents_Paper ~ Grocery + Channel + Grocery * Channel: 0.8919
Output AIC ed ANOVA:
Dopo aver creato i tre modelli abbiamo deciso di utilizzare quello con l’interazione, considerando, altresì, i tre relativi AIC ed il test ANOVA.
| Info | Value | Pvalue | Decision |
|---|---|---|---|
| Skewness | 3.400e+00 | 0.06518 | Assumptions acceptable |
| Kurtosis | 2.970e+03 | 0.00000 | Assumptions NOT satisfied |
| Heteroscedasticity | 2.995e+00 | 0.08351 | Assumptions acceptable |
Dai grafici e dai risultati sulle assunzioni, mostrate dall’oggetto gvlma, si può notare come vi sia omoschedasticità ed una discreta gaussianità, inoltre sembra esserci una relazione lineare tra le variabili Detergents_Paper e Grocery.
Indice di correlazione senza trasformazioni: 0.7283351
Indice di correlazione con trasformazione logaritmica: 0.5970228
Indice di correlazione con trasformazione square root: 0.7136706
Indice di correlazione con trasformazione quadratica: 0.5693098
In seguito alla valutazione degli indici di correlazione con le diverse trasformazioni abbiamo deciso di utilizzare le variabili senza trasformazioni
Gli R^2 relativi ai tre modelli sono i seguenti:
Milk ~ Grocery: 0.5305
Milk ~ Grocery + Channel: 0.5288
Milk ~ Grocery + Channel + Grocery * Channel: 0.5342
Output AIC ed ANOVA:
Secondo gli stessi criteri di valutazione utilizzati per la coppia di variabili precedente abbiamo deciso di utilizzare il modello semplice, in quanto, nonostante il modello con l’interazione abbia AIC minore e R^2 aggiustato maggiore, la differenza non è così significativa, come emerge dal test ANOVA, pertanto abbiamo preferito utilizzare un modello più semplice possibile.
| Info | Value | Pvalue | Decision |
|---|---|---|---|
| Skewness | 832.04 | 0.00000 | Assumptions NOT satisfied |
| Kurtosis | 27401.47 | 0.00000 | Assumptions NOT satisfied |
| Heteroscedasticity | 16.92 | 3.896e-05 | Assumptions NOT satisfied |
Dai grafici e dai risultati sulle assunzioni mostrate dall’oggetto gvlma, si può notare come vi sia eteroschedasticità, non gaussianità, e non linearità nell’associazione tra la variabile Milk condizionatamente a Grocery.
Indice di correlazione senza trasformazioni: 0.6618157
Indice di correlazione con trasformazione logaritmica: 0.5635915
Indice di correlazione con trasformazione square root: 0.6578422
Indice di correlazione con trasformazione quadratica: 0.5154587
In seguito alla valutazione degli indici di correlazione con le diverse trasformazioni abbiamo deciso di utilizzare le variabili senza trasformazioni
Gli R^2 relativi ai tre modelli sono i seguenti:
Detergents_Paper ~ Milk: 0.438
Detergents_Paper ~ Milk + Channel: 0.5752
Detergents_Paper ~ Milk + Channel + Milk * Channel: 0.6205
Output AIC ed ANOVA:
Considerando i tre modelli, quello semplice, quello con l’aggiunta della variabile categoriale Channel ed, infine, quello con anche l’interazione tra la variabile esplicativa Milk e Channel, abbiamo deciso di utilizzare quest’ultimo, considerando anche quanto mostrato dagli output relativi ai tre AIC ed al test ANOVA
| Info | Value | Pvalue | Decision |
|---|---|---|---|
| Skewness | 1.244e+03 | 0.00000 | Assumptions NOT satisfied |
| Kurtosis | 3.482e+04 | 0.00000 | Assumptions NOT satisfied |
| Heteroscedasticity | 5.509e-02 | 0.814426 | Assumptions acceptable |
Dai plot sui residui, dal qqnorm e dai risultati delle assunzioni mostrate dall’oggetto gvlma, ne evince come vi sia omoschedasticità, ma per quanto riguarda linearità e gaussianità il modello non rispetta le assunzioni stabilite.
Indice di correlazione senza trasformazioni: 0.4063683
Indice di correlazione con trasformazione logaritmica: 0.2768891
Indice di correlazione con trasformazione square root: 0.4139261
Indice di correlazione con trasformazione quadratica: 0.2877589
Dagli indici di correlazione emerge come, in questo caso, sia meglio considerare la radice quadrata della variabile esplicativa Delicassen
Gli R^2 relativi ai tre modelli sono i seguenti:
Milk ~ Delicassen: 0.1713
Milk ~ Delicassen + Channel: 0.3377
Milk ~ Delicassen + Channel + Delicassen * Channel: 0.3381
Output AIC ed ANOVA:
Sebbene i tre R^2 non siano alti, quindi i tre modelli non spiegano bene i dati, dopo aver valutato anche i tre AIC e l’output del test ANOVA, emerge come il modello senza interazione ma con l’aggiunta di Channel sia il più adatto, in quanto, nonostante non sia quello con R^2 maggiore, ha AIC minore e l’ANOVA mostra che l’aggiunta dell’interazione non è significativa (p-value = 0.2556).
Inoltre, per coerenza con quanto precedentemente detto, è preferibile utilizzare il modello più semplice possibile nel caso in cui le differenze a livello di R^2 e AIC non siano così rilevanti.
| Info | Value | Pvalue | Decision |
|---|---|---|---|
| Skewness | 1331.45 | 0.00000 | Assumptions NOT satisfied |
| Kurtosis | 21844.71 | 0.00000 | Assumptions NOT satisfied |
| Heteroscedasticity | 81.05 | 0.00000 | Assumptions NOT satisfied |
Anche in questo caso, come precedentemente osservato con Milk ~ Grocery, nessuna ipotesi è rispettata, infatti osservando i grafici ed i risultati dell’oggetto gvlma, emerge come vi sia eteroschedasticità, non gaussianità, e non linearità nella relazione Milk condizionatamente a Delicassen.
Di seguito riportiamo i quattro scatterplot con le relative rette di regressione lineare:
Valutando i quattro modelli, secondo le loro caratteristiche, possiamo affermare che il modello più affidabile risulta essere quello basato sulla relazione Detergents_Paper ~ Grocery, mentre, i restanti tre, risultano inaffidabili.
Considerando la bontà del primo modello visualizziamo la differenza, in termini di spesa di Detergents_Paper, tra i clienti Horeca e Retail che spendono 75000 m.u. in Grocery.
La differenza, in valore assoluto, risulta essere 22155.14 m.u.
Per quanto riguarda la cluster analysis abbiamo ritenuto che, disponendo già di due variabili categoriali su cui basare i raggruppamenti, le informazioni tratte da essa sarebbero risultate irrilevanti.